^47 


第 37 卷 第 5 期 计算 机 应 用 研究 人 No 


-HATI 
日 二 


录用 定稿 Application Research of Computers Accepted Paper 


基于 模糊 蚁 群 的 加 权 蛋 白质 复合 物 识 别 算法 
PERO XR, W 健 ? 


(1. 江西 理工 大 学 信息 工程 学 院 , 江西 34 341000; 2. 江西 理工 大 学 应 用 科学 学 院 信息 工程 系 ,江西 赣州 
341000) 


摘 要 : 针对 蚁 群 融 合 模糊 C-means (FCM) 聚 类 算法 在 蛋白 质 相 互 作用 网 络 中 进行 复合 物 识别 的 准确 率 不 高 、 召 回 
率 较 低 以 及 时 间 性 能 不 佳 等 问题 进行 了 研究 ， 提 出 一 种 基于 模糊 蚁 群 的 加 权 蛋 白质 复合 物 识别 算法 FAC-PC 
(algorithm for identifying weighted protein complexes based on fuzzy ant colony clustering)。 首 先 ， 融 合 边 聚集 系数 与 基 
因 共 表达 的 皮尔 逊 相关 系数 构建 加 权 网 络 ; 其 次 提出 EPS (essential protein selectiom) 度 量 公式 来 选取 关键 蛋白 质 ， 遍 
历 关 键 蛋 白质 的 邻居 节点 ， 设 计 蛋 和 白质 适应 度 PFC (protein fitness calculatiom) 来 获取 关键 组 蛋白 质 ， 利 用 关键 组 蛋白 
质 替 换 种 子 节点 进行 蚁 群 聚 类 ， 克 服 蚁 群 算法 中 因 大 量 拾 起 放下 和 重复 合并 过 滤 操 作 而 导致 准确 率 和 收 敏 速度 过 慢 
的 缺陷 ; 接着 设计 相似 度 SI (similarity improvement) 度 量 优化 拾 起 放下 概率 来 对 节点 进行 蚁 群 聚 类 进而 获得 聚 类 数 
目 ; 最 后 将 关键 蛋白 质 和 通过 蚁 群 聚 类 得 到 的 聚 类 数目 初始 化 FCM 算法 ， 设 计 隶 属 度 更 新 策略 来 优化 隶属 度 的 更 
新 ， 同 时 提出 兼顾 类 内 距 和 类 间距 的 FCM 和 迭代 目标 函数 ， 最 终 利 用 改进 的 FEFCM 完成 复合 物 的 识别 。 将 FAC-PC 算 
法 应 用 在 DIP 数据 上 进行 复合 物 的 识别 ， 实 验 结果 表明 FAC-PC 算法 的 准确 率 和 召回 率 较 高 ， 能 够 较 准 确 地 识别 蛋 
白质 复合 物 。 
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Abstract: Aiming at the problem that the accuracy and recall of the protein complexes identification algorithm based on ant 
colony and fuzzy C-means (FCM) clustering are not high and the running efficiency is low, this paper proposed a novel 
protein complex recognition algorithm named FAC-PC (algorithm for identifying weighted protein complexes based on 
fuzzy ant colony clustering) . Firstly, combing with the Pearson correlation coefficient and edge aggregation coefficient, it 
constructed the weighted protein network. Secondly, in order to overcome the defects of massive merger, filter, repeated 
pick-up and drop-down operations in ant colony clustering algorithm, it designed the EPS (essential protein selection) 
metric to select essential protein, and designed the PFC (protein fitness calculation) metric to traverse neighbors of essential 
proteins to obtain essential group proteins, then the essential group protein replaced the seed node in the process of ant 
colony clustering, which improved results that the accuracy and time performance. Furthermore, it proposed the SI 
(similarity improvement) metric to optimize the probability of picking and dropping operations of ant colony to obtain the 
number of clustering. Finally, according to the improved ant colony algorithm, it obtained the essential protein and the 
number of clustering to initialize the FCM algorithm, and designed the membership update strategy to optimize the 
membership update, at the same time, a new FCM objective function which took a balance between intra-clustering and 
proposed inter-clustering variation, finally identified the protein complex by improved FCM algorithm. It used FAC-PC 
algorithm to identify protein complexes on DIP data. The experimental results show that FAC-PC algorithm has better 
performance on accuracy and recall, which is more reasonable to identify protein complexes. 
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质 复合 物 是 指 在 相同 时 间 和 空间 通过 相互 作用 组 成 


络 ， 它 可 以 表示 成 一 个 无 向 图 1。 在 一 个 PPI 网 络 中 ， 和 蛋 


个 生命 有 机 体内 的 所 有 和 蛋白质 之 间 相 互 作用 组 成 的 网 。” 生 了 许多 高 质量 、 大 规模 的 PPI 网 络 数 据 ， 这 些 数 


质 相互 作用 网 络 (protein-protein interaction, PPD ” 子 机 制 的 蛋白 质 集 合 站 。 大 量 的 生物 实验 和 计算 方法 实验 产 
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别 效果 受 假 阳 性 的 影响 、 蚁 群 聚 类 需 大 量 的 拾 起 
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放下 和 合并 


人 类 预测 未 知 的 蛋白 质 功 能 ， 解 释 特定 的 生物 进程 ， 并 为 研 ARE, UK FCM 算法 对 聚 类 中 心 和 聚 类 数目 敏感 、 隶 
究 疾病 的 发 生机 理 ， 寻 找 新 的 药物 靶 标 ， 提 供 重要 的 理论 基 属 度 更 新 较 慢 ,目标 函数 仅仅 考虑 类 内 差异 等 导致 的 准确 率 、 
础 外。 因此 ， 识 别 蛋 白质 复合 物 是 生物 信息 领域 中 的 一 项 研 召回 率 不 高 以 及 执行 效率 低 等 缺陷 ， 仍 是 吸 待 解决 的 问题 。 
究 热 点 。 针对 以 上 问题 ， 本 文 提 出 了 基于 模糊 蚁 群 的 加 权 和 蛋白 质 
迄今 为 止 ， 利 用 计算 方法 进行 蛋白 质 复合 物 识别 已 经 是 复合 物 识别 算法 FAC-PC (algorithm for identifying weighted 
后 基因 组 时 代 生 物 信息 学 领域 中 一 个 非常 活跃 的 研究 领域 。 protein complexes based on fuzzy ant colony clustering )， 主 要 
根据 计算 机 理 的 不 同 ， 识 别 蛋 白质 复合 物 的 算法 大 体 分 为 : TEK: a) 融合 边 聚 集 系数 与 基因 共 表 达 的 皮尔 逊 相关 系数 
基于 密度 的 方法 9、 基于 层次 的 方法 I 和 基于 划分 的 聚 类 ”构建 加 权 和 蛋白 质 网 络 ; b) 设计 基于 PPI 网 络 拓扑 特性 与 基 
方法 B9。 这 些 方法 都 有 一 定 的 缺陷 ,基于 密度 的 聚 类 方法 很 对 表 达 数 据 的 EPS 度量 公式 选取 关键 蛋白 质 ; c) 提出 基于 
难 对 网 络 中 大 量 的 稀 朴 节点 进行 聚 类 ， 算 法 挖掘 的 功能 模块 期 望 稠密 度 和 模块 度 的 PFC 度量 公式 获取 关键 组 蛋白 质 ; d) 
的 准确 率 不 高 ;基于 层次 的 聚 类 方法 难于 检测 出 节点 交 压 的 设计 基于 权重 的 相似 度 SI 度量 优化 蚁 群 算法 的 拾 起 放下 概 
功能 模块 ， 聚 类 结果 对 网 络 的 噪声 非常 敏感 。 由 于 模糊 率 ， 完 成 蚁 群 聚 类 获得 聚 类 数目 ; e) 利用 蚁 群 聚 类 获得 的 聚 
C-means (FCM) 聚 类 算法 实现 简单 ， 收 和 敛 速度 快 和 局 部 搜索 类 数目 和 关键 蛋白 质 初始 化 FCM 聚 类 算法 ， 设 计 隶 属 度 更 
能 力 强 ， 利 用 模糊 隶属 度 划 分 数据 可 以 改进 数据 的 硬 划 分 问 新 策略 来 改进 FCM 隶属 度 的 更 新 计算 ， 同 时 综合 考虑 类 内 
题 。 因 此 ， 目 前 FCM 聚 类 算法 已 成 功 应 用 于 PPI 网 络 复合 ” 和 类 间距 ， 改 进 FCM 算法 的 目标 函数 ， 最 后 利用 改进 的 
物 识 别 ， 成 为 该 领域 的 研究 热点 。Trivodaliev 等 人 09 提 出 将 FCM 完成 复合 物 的 识别 。 实 验 结果 表明 本 文 算法 运行 效率 高 ， 
FCM 与 谱 聚 类 相 结合 用 于 蛋白 质 模块 功能 挖掘 。 该 算法 是 根 聚 类 结果 的 准确 率 以 及 召回 率 较 高 。 
据 数据 节点 的 模糊 隶属 度 将 数据 划分 到 不 同 的 类 中 ， 实 验 划 1 ”相关 工作 
分 结果 却 存在 对 初始 聚 类 中 心 和 聚 类 数目 敏感 的 缺陷 ， 隶 属 
度 和 矩阵 更 新 较 慢 以 及 目标 函数 仅仅 考虑 类 内 之 间 的 差异 ， 没 1.1 FCM 聚 类 算法 


有 考虑 类 间距 对 实验 结果 造成 的 影响 ， 导 致 蛋白 质 复 合 物 识 


FCM 聚 类 算法 59 通过 计算 每 个 样本 点 对 所 有 类 中 心 的 


别 的 过 程 容易 陷入 局 部 最 优 ， 算 法 的 预测 精度 不 高 和 收敛 速 ”隶属 度 ， 并 对 目标 函数 不 断 进 行 优化 找到 最 优 解 ， 从 而 决定 
度 较 慢 。 除 此 之 外 ， 近 年 来 涌现 出 许多 群 智 能 思想 融合 图 聚 。 ”样本 点 的 隶属 ， 达 到 对 样本 数据 集 进行 聚 类 的 目的 。 

类 过 程 的 检测 方法 ， 该 类 算法 通过 模拟 社会 性 生物 群体 间 的 PSOE X 2065-3.) ， 其 中 Xi Ut Xo Xn) 。 
办 作 行为 实现 复合 物 的 检测 挖掘 ， 展 现 4 检测 质量 HL。 " 

及 较 强 的 鲁 棒 性 特点 ， 本 身 就 可 以 直接 聚 类 实现 复合 物 的 控 小 化 目标 函数 /， 目 标 函 数 / 定义 如 下 ， 

掘 ， 因 此 基于 蚁 群 的 蛋白 质 复合 物 挖掘 算法 逐渐 成 为 一 新 的 MN 

研究 热点 。 开 等 人 上 提出 蚊 群 聚 类 思想 应 用 到 PPI 网 络 模块 Jük)- X Y wraGoci) a) 
检测 问题 上 ， 提 出 了 基于 蚁 群 聚 类 的 PPI 网 络 模块 检测 算法 mes 

ACC-FMD。 赵 学 武 等 人 (3 提出 了 融合 时 序 保持 特征 和 蚁 群 "um m "TN 
RRAS PPI 网 络 复合 物 识别 算法 ACC-DPC。 这 些 算法 。 其 o ARMIR; RAWA Ka du) Waie 
的 聚 类 过 程 存 在 反复 拾 起 放下 操作 和 大 量 的 合并 过 滤 操作 ， ” 间 的 欧式 距离 。 结 合 拉 格 朗 日 最 小 二 乘法 原理 ， 最 小 化 目标 
导致 实验 运行 的 时 间 效率 以 及 准确 性 不 高 。 为 了 克服 FCM ”函数 得 到 隶属 度 几 和 聚 类 中 心 ey 的 迭代 更 新 表达 式 如 下 : 
聚 类 算法 对 初始 聚 类 中 心 和 聚 类 数目 敏感 的 问题 ， 文 献 [14] Tr 

提出 将 FCM 与 群 智 能 人 工蜂 群 聚 类 算法 相 结合 用 于 蛋白 质 «T enn" iLGNG-LAoK 0) 
复合 物 识别 ， 弥 补 FCM 算法 的 不 足 ， 取 得 了 较 好 的 聚 类 效 

果 。 然 而 上 述 研究 都 是 将 PPI 网 络 有 效 地 用 未 加 权 图 模型 来 dr. 

描述 ， 已 经 被 证 明 可 以 比较 有 效 地 识别 蛋白 质 复合 物 ， 但 G) 
于 PPI 网 络 本 身 的 复杂 性 ， 可 利用 的 PPI 数据 的 不 完整 性 以 zu 

及 PPI 网 络 中 存在 噪声 等 众多 问题 ， 仅 仅 依靠 PPI 网 络 本 身 该 算法 本 质 上 是 一 种 局 部 搜索 寻 优 方法 ， 计 算 简单 ， 容 
蛋白 质 复合 物 研究 已 经 受到 了 限制 ， 实 验 结果 容易 受到 假 。 易 实现 ， 但 对 初始 聚 类 中 心 极为 敏感 ， 容 易 陷入 局 部 极 值 而 


杂 蛋 白质 网 络 结构 具有 重要 作 


f 
阳性 以 及 噪声 数据 的 影响 ; 
的 功能 ， 不 同 的 边 的 重要 性 


而 
也 不 同 ， 更 真实 、 详 


是 生物 中 每 个 


白 


提出 一 种 从 加 权 和 蛋 
法 GENA. Kouhsar 
算法 预测 加 权 PPI 网 
一 种 跨 模块 中 心 移 


这 些 方法 克明 


地 识别 精度 和 很 强 
效率 不 高 。 昌 
的 成 效 ， 但 是 如 何 有 效 地 构建 加 权 PPI， 如 


]U3, py, 


为 加 权 图 来 研究 更 为 合理 。 


质 复合 物 越 来 越 受到 人 们 的 关注 。Dimitrakopoulos 等 人 09 
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质 复合 物 的 


白质 复合 体 。 
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L 24 
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能 很 


但 是 聚 类 结果 


网 络 的 复合 物 


的 召回 率 和 时 
识别 取得 了 一 


何 克 服 复合 物 


算 


EB WCOACH 
Ama $ AUS qi 
别 算法 IMHRC. 


好 
间 
定 
识 


很 难得 到 全 局 最 优 解 ， 聚 类 个 数 需要 人 为 设 定 ， 
较 慢 以 及 目标 函数 仅仅 考虑 类 内 距 ， 没 有 考虑 类 


xk m 3f] 
隶属 度 更 新 


间距 ， 这 给 


蛋白 质 复 合 物 挖 掘 造成 十 分 不 利 的 影响 ， 因 此 采用 传统 的 
FCM 算法 无 法 对 蛋白 质 复合 物 进行 准确 的 挖掘 。 
1.2 ” 蚁 群 聚 类 算法 

本 文采 用 ACC-FMD 算法 0 的 蚁 群 聚 类 思想 来 介绍 蚁 群 
聚 类 过 程 。 该 方法 将 PPI 网 络 看 成 是 无 向 图 G(V,E) ， 其 中 : 
V 表示 蛋白 质 节点 集合 ; E 表示 和 蛋白质 相 互 作用 边 的 集合 。 
主要 过 程 为 


取 种 子 节点 。 根据 节点 的 聚集 系数 ,将 


聚集 系数 大 


于 闵 值 的 节点 选择 出 来 。 对 于 网 络 G(V,E) 中 的 任意 节点 ,其 
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" ay 数 衡量 相互 作用 边 的 可 靠 性 进而 构建 加 权 网 络 ， 其 次 利用 
[Neigh GIL Nein T EPS 度量 公式 选取 关键 看 白质, 遍历 关键 蛋白 质 的 邻居 节点 ， 
Kr. Neigh(i) 表示 节点 i 的 直接 邻居 集合 ， 表示 集合 。 利用 本 文 设计 的 PFC 度 量 来 获取 关键 组 蛋白 质 ， 将 关键 组 
Nan REUS AGE MERTERT 蛋白 质 蔡 换 种 子 节点 进行 蚊 群 聚 类 ; 接着 使 用 相似 度 ST 度量 
取 类 过 程 。 蚂蚁 开始 遍历 种 子 节点 的 领域 ,根据 拾 起 ”优化 蚁 群 痊 起 放下 概率 来 对 节点 进行 蚁 群 珍 类， 获得 聚 类 数 
PRI UN UJ. BHOJEMCKRBORHUDGEGUTT: — 目 ， 最 后 将 关键 蛋白 质 和 通过 蚊 群 聚 类 得 到 的 聚 类 数目 初始 
2 化 FCM 算法 ， 利 用 改进 的 隶属 度 更 新 策略 来 优化 隶属 度 的 
PS 6) ”更 新 ， 同 时 也 提出 兼顾 类 内 距 和 类 间距 的 FCM X4 H rK 
| 数 ， 并 利用 改进 的 FCM 算法 最 终 完成 复合 物 的 识别 。 
ide e © 2.2 加 权 蛋 白质 网 络 的 构建 
1 其 他 针对 传统 的 基于 PPI 网 络 的 蛋白 质 复合 物 识别 算法 的 准 
E: si 四 是 节点 i RJ WARE: o 和 名 两 个 参数 。 ” 确 度 比较 依赖 于 网 络 本 身 的 可 靠 性 ， 复 合 物 的 识别 效果 容易 
结构 相似 度 定义 为 受到 假 阳性 以 及 噪声 数据 的 影响 ， 生 物 蛋白 质 网 络 中 不 同 边 
sa- OA y 的 重要 性 不 同等 问题 ， 本 文 基于 蛋白质 复合 物 是 成 全 出 现 上 
OnO 倾向 于 共 表达 的 事实 ， 且 蛋白 质 复合 物 的 挖掘 与 相互 作用 的 
Kp. e) Rb 和 其 直接 邻居 节点 构成 的 集合 。 可 靠 程度 之 间 关系 密切 ， 综 合 考虑 蛋白 质 网 络 的 拓扑 边 聚 集 
c) 信息 传递 。 通过 节点 之 间 的 相似 性 将 上 一 代 的 最 优 解 ”系数 和 共 表 达 生物 特征 ， 采 用 边 聚 集 系 数 P0 和 皮尔 逊 相关 系 
千 递 给 下 一 代 。 该 算法 评价 解 的 质量 是 通过 模块 化 密度 来 实 。 数 20 衡 量 蛋 白质 两 个 节点 之 间 相 互 作用 的 可 靠 程度 。 
岗 的 ， 每 一 代 根据 D 值 选取 最 优 解 ， 其 定义 为 边 聚 集 系数 作为 蛋白 质 相 互 作用 网 络 的 一 个 重要 拓扑 特 
2 82.1 全 性， 可 以 用 来 描述 蛋 自 质 相互 作用 之 间 的 可 靠 性 ， 还 可 以 必 
B o* 来 衡量 蛋白 质 之 间 属 于 用 一 艇 的 概率 ， 能 够 较 好 地 识别 出 关 
Kr. om 是 预测 得 到 的 复合 物 的 数量 ， 是 复合 物 h 中 的 边 REGAR. WEARI A u A v 的 边 聚 集 系 数 BCC(uv) 计算 
Ho 五 为 边 的 一 端 在 复合 物 内 部 ， 另 一 端 在 复合 物 的 外 部 的 T "— 
边 的 数量 ， 是 复合 物 中 节点 的 个 数 。 Trin Ny-D en 
d) 后 处 理 过 程 。 对 初始 聚 类 结果 进行 合并 和 过 滤 两 个 。 其 中 : NOON RRI A u M v BERGE AUR S EU. N 
基本 后 处 理 操作 。 合 并 操作 是 合并 两 个 相似 度 大 于 阔 值 的 模 ”和 N, DAREN A u M v 的 度 。 
块 ， 对 合并 后 的 聚 类 结果 过 滤 掉 那些 密度 小 于 闪 值 的 模块 ， 另 一 方面 利用 基因 表达 数据 来 计算 两 个 蛋白 质 节点 之 间 
其 相似 度 定义 为 的 皮尔 逊 相关 系数 , 以 衡量 蛋白 质 之 间 的 可 信 度 。PCctuy) 表 
z si) 示 节 点 之 间 的 皮尔 逊 相关 系数 ， 则 节点 与 之 间 的 皮尔 过 
S(M My) T (9) ”相关 系数 计算 如 下 : 
nin Mehl y] m m 
1 i=j PCC (u,v) en > nd (12) 
,jlgiNngjpl on ^e 9n 
"I sua] eee CO 入 中 ，N, 入 ,分 别 代表 节点 和 wv 的 直接 邻居 集合 ; CE 
DIERKE Ws Ua est E A 60 5s 
组 织 [性 等 优点 ， 聚 类 过 — AHN 
MARMER EAR Mr cO DUO pEgg, Cm EMA TARA BONE AEAN u 
居 此 采用 传统 的 蚁 群 算 法 无 法 有 效 地 对 蛋白 质 复合 物 进行 准 Mv 在 所 有 时 刻下 的 平均 表达 值 ，o(w) 和 c(w) 表示 蛋白 质 节 
确 控 气 。 点 和 vy 在 所 有 时 刻下 的 标准 方差 。 


2 FAC-PC 算法 


2.1 算法 思想 


针对 有 蛋 
效果 容易 受到 假 阳 性 的 影响 ， 蚁 群 
重复 拾 起 放下 操作 影响 较 大 和 FCM A 


质 相互 作用 网 络 存 在 不 稳定 


ex 
聚 类 


案 类 结果 对 初始 聚 类 


心 、 聚 类 数 
类 内 之 间 的 差异 等 问题 ， 
行 效率 和 降低 假 阳 性 的 影响 ， 


AW RAE 


敏感 、 隶 属 度 更 新 较 慢 以 及 


标 函 数 仅仅 考虑 


性 ， 复 合 物 的 识别 
天 效率 受 合并 过 滤 以 及 


H 


BEHR AER H 
本 文 借鉴 文献 [14] 的 群 智能 


法 融合 FCM 算法 来 实现 蛋 
群 算法 的 信息 正 反馈 机 制 、 并 行 性 、 
鲁 棒 性 特点 来 解决 FCM 对 聚 类 中 心 和 村 
提出 了 一 种 在 加 权 PPI PA pot 2008 


质 复合 物 的 挖掘 是 
全 局 化 特征 


案 类 数 


RIE 


敏感 的 问题 


FAC-PC。 有 具体 FAC-PC 算法 思想 为 : 首先 以 蛋白 质 相互 作 月 


网 络 为 框架 


， 利 用 边 


质 复 r1 物 算 法 


思想 ， 利 用 蚁 
以 及 较 强 的 


H 


力 聚 集 系 数 与 基因 共 表 达 的 皮尔 逊 相关 系 


在 PPI 网 络 拓扑 边 聚 


入 系数 的 基础 上， 融合 基因 


表达 


数据 ， 设 计 出 了 边 聚 集 系 数 与 基因 共 表达 的 皮尔 逊 相 关系 数 


的 乘积 公式 


于 计算 相互 作 | 


j 边 的 存在 概率 ， 从 而 构建 加 权 


蛋白 质 相 互 作 用 
P(u ,v) 计 算 如 下 : 


网 络 。 则 蛋白 质 相 互 作用 网 络 中 边 的 权重 


P(u,v)= ECC (u,v)x PCC(u,v) 


(13) 


通过 式 (13) 构造 的 加 权 了 网 络 ， 不 仅 考虑 了 节点 的 拓扑 


特性 聚集 程度 ， 


而 且 还 增加 了 皮尔 逊 相关 系数 来 度量 相互 作 


HE 


质 的 基因 


表达 强 弱 程 度 ， 可 以 将 一 部 分 权 值 为 0 的 


数据 排除 ， 降 


提高 识别 的 准 
定义 1 


V — (vi, Va, Vs, Va Vas 


S) 表示 和 蛋白质 
E —(6,6,,63,64,65,...6,) K 示 E 


氏 预 测 方法 对 蛋白 质 相 互 作用 网 络 本 身 可 靠 性 
的 依赖 程度 以 及 假 阳 性 和 噪声 数据 对 实验 造成 的 影 
确 度 。 加 权 后 的 蛋白 质 网 络 形式 化 定义 如 下 : 


白质 网 络 DG(V,E,P) 。 


节 点 4 


An BC E 
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P=(P(e),P(e),p(e),p(e),Pp(e)…p(e)) 表示 相互 作用 权重 的 

集合 。 

2.3 蚁 群 算法 的 改进 

2.3.1 关键 蛋白 质 的 选取 

针对 蚁 群 聚 类 种 子 节点 的 选取 仅仅 依靠 PPI 数据 ， 识 别 

的 准确 率 比较 依赖 于 网 络 本 身 的 可 靠 性 ， 实 验 结果 容易 受到 

假 阳 性 的 影响 。 为 了 降低 假 阳 性 的 影响 ， 提 高 聚 类 准确 性 ， 

本 文 设计 出 基于 边 聚 集 系数 和 皮尔 逊 相关 系数 的 关键 蛋白 质 

选取 EPS 度量 公式 。 
给 定 蛋 白质 加 权 网 络 DG(V.E,P), ECCQuv) 表示 节点 u 

与 v 之 间 的 边 聚集 系数 ，PCC(u,v) 表示 节点 之 间 的 皮尔 逊 相 


关系 数 ， 则 关键 蛋白 质 选 取 EPS 度量 公式 为 
pe P(u,v)— min P(u,v) 
ERSU) De a (14) 


EPS(u) 考 虑 到 了 节点 u 和 vw 在 网 络 的 拓扑 特性 的 聚集 程 
度 ， 还 增加 了 基因 共 表 达 程 度 来 衡量 一 个 节点 和 其 邻居 节点 
成 簇 的 可 能 性 ， 而 且 还 考虑 到 基因 表达 数据 与 PPI 网 络 数据 
的 差别 , 因此 能 有 效 地 评价 一 个 蛋白 质 的 关键 性 ,根据 式 (14)， 
将 高 于 关键 性 闷 值 的 节点 选取 出 来 ， 这 样 可 以 降低 假 阳 性 和 
假 阴 性 对 实验 结果 产生 的 影响 ， 而 且 使 得 有 公共 顶点 的 稠密 
子 图 的 相似 度 尽 可 能 降低 ， 最 终 提 高 算法 运行 的 准确 率 ， 本 
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等 问题 。 为 了 提高 实验 运行 效率 以 及 识别 出 高 内 聚 低 耦 合 的 
复合 物 , 本 文 提 出 蛋白 质 适 应 度 PFC 度量 来 选取 关键 组 蛋白 
质 ， 进 而 利用 关键 组 蛋白 质 蔡 代 种 子 节点 进行 蚁 群 聚 类 。 这 
是 因为 关键 组 蛋白 质 是 一 个 子 图 ， 由 于 子 图 之 间 的 差异 性 比 
原来 蚁 群 聚 类 算法 中 种 子 节点 之 间 的 差异 性 大 ， 所 以 求 得 的 
复合 物 不 需要 再 进行 合并 ， 从 而 提高 了 算法 的 运行 效率 以 及 
准确 率 ;， 同时 在 每 次 拾 起 放下 之 前 会 判断 加 入 该 蛋白 质 节点 
和 不 包含 该 蛋白 质 的 适应 度 差 值 是 否 大 于 0， 如 果 适 应 度 小 
于 0， 不 对 它 进行 拾 起 放下 操作 ， 减 少 拾 起 放下 次 数 进而 提 
高 计算 效率 。 
基于 复合 物 是 稠密 子 图 上 且 具 有 高 度 的 模块 性 ， 设 计 出 基 
于 期 望 稠密 度 234 和 模块 度 23] 的 蛋白 质 节点 适应 度 PFC 度量 
公式 ， 根 据 节 点 适应 度 来 遍历 关键 节点 的 邻 域 节 点 ， 最 终 形 
成 关键 组 蛋白 质 ， 利 用 核心 组 蛋白 质 蔡 代 种 子 节点 进行 蚁 群 


RX. 


m 
2x X p(ei) 
EI ， 
IV [xv ]-1) 
E-(a.eeses essen) , MTE S, 则 网 络 图 G 的 期 望 稠密 度 定 
义 为 


给 定 一 个 蛋 


质 网 络 DG(V.E,P), Krp 


文 设置 5=0.01。 d du (15) 
关键 蛋白 质 的 选取 思想 如 下 : 首先 基于 和 蛋白质 复 合 物 是 |v |x(v ]-1) 

成 复出 现 且 倾向 于 共 表 达 的 事实 ， 利 用 式 〈13 ) 来 计算 边 的 模块 度 的 定义 为 

存在 概率 ,构建 加 权 网 络 ; 接着 充分 考虑 节点 之 间 的 紧密 程度 X plvas) 

以 及 共 表达 程度 ， 利 用 EPS ERR (14) 来 计算 网 络 节点 的 MET COE (16) 

BUE, RREK T RHENE BRL TS ex EN REAR E 

蛋白 质 。 这 是 因为 关键 性 高 的 蛋白 质 对 生命 活动 更 为 重要 ， 其 中 : P 表示 网 络 图 Tulit ERR. 通过 边 聚 集 系 数 和 皮 

从 而 求 得 的 蛋白 质 复 合 物 更 能 体现 功能 模块 的 生物 特性 ， 而 ” 尔 逮 相关 系数 的 乘积 计算 得 到 ; v 是 子 图 S 中 的 任意 节点 ; 

相 比 非 关键 蛋白 质 ， 关 键 蛋 白质 对 于 复合 物 的 挖掘 的 重要 PoS) & Ti pi v, 与 子 图 S 内 部 其 他 节点 的 连接 边 的 权重 ; 

性 更 高 。 Pra (Va pn 点 Vv 与 DG-S 中 其 他 节点 的 连接 边 的 权重 。 该 

关键 蛋白 质 的 选取 过 程 形式 化 如 下 : 公式 充分 考虑 到 内 部 节点 与 外 部 节点 之 间 的 联系 。 考 虑 到 关 


输入 : 蛋白质 网 络 G(.EP), REBRE, ARZ 
数据 和 参数 5 。 
输出 : 关键 蛋白 质 集合 VY) o 
a) 构 建 加权 和 蛋白 质 网 络 
(1)foreach (u,v)eE do 
(2) Compute ECC(u,») by Eq. (11) 
(3) Compute PCC(wv) by Eq. (12) 
(4) Compute P(wv) by Eq. (13) 


(S)end for 
b) 选 取 关 键 蛋白 质 
(1) L9 


(1)foreach veV do 

(2) If EPS(v,)>0 do 

G)  L-Low 将 工 中 的 关键 蛋白 质 按照 EPS 权重 非 弟 
减 排序 , L={vi,v,…v} EL EPS (v)  EPS(v;) 2 ...EPS (v; ) 

(4) endif 

(S)end for 
2.3.2 关键 组 蛋白 质 的 形成 

针对 蚁 群 聚 类 采用 种 子 节点 来 扩展 形成 蛋白 质 复合 物 ， 
若 两 个 种 子 节 点 之 间 相 似 度 比 较 大 ， 那 么 聚 类 形成 的 两 个 复 
ee 在 后 处 理 过 程 中 ,需要 将 这 两 个 模块 合并 ， 
合并 操作 需要 大 量 的 操作 计算 ， 影 响 算法 的 时 间 性 能 ， 而 
昌 一 个 蛋白 质 节点 可 能 处 于 多 个 种 子 节点 的 邻 域 内 ， 蚁 群 算 
法 需 重复 拾 起 放下 操作 导致 的 算法 运行 效率 不 高 和 准确 率 低 


键 组 蛋白 质 是 小 而 稠密 的 模块 子 图 ， 为 了 挖掘 高 内 聚 低 耦 合 
的 关键 组 蛋白 质 ， 进 而 提高 蛋白 质 复 合 物 识别 的 准确 性 ， 本 
文 提出 的 子 图 适应 度 以 及 蛋白质 适应 度 PFC 的 计算 公式 分 
别 如 下 : 


F; = pEDx(1— p)WR (17) 
PFC(S,v)- Fyn — F, , (18) 

其 中 : ”pe(0,1) 表 示 期 望 稠 密度 和 模块 度 这 两 种 特征 在 F; 所 
ee edd P 越 大 ， 说 明子 图 密度 在 F 中 影响 力 越 大 ， 
而 子 图 模块 度 的 影响 力 越 小 ;，S+v 与 Sw 分 别 表 示 在 子 图 S 
LAS EX v Sue niv 的 聚 类 ; PFC(5,v) 表示 为 子 图 5S 含 
节点 v 和 不 包含 节点 v 时 的 节点 适应 度 之 间 的 差 值 ， 当 
PFC(S,v) 越 大 ， 则 节点 v 越 可 能 属于 子 图 S. 

关键 组 蛋白 质 的 形成 思想 如 下 : 首先 基于 加 权 和 蛋白 质 网 
络 ， 遍 历 关 键 蛋 白质 节点 的 邻 域 节点 ， 把 关键 蛋白 质 节点 当 
作 初 始 的 关键 组 蛋白 质子 图 Set; 然后 根据 式 (18) RHE 
否 将 关键 和 蛋白质 的 邻 域 节点 添加 进来 ， 若 节点 v 使 得 
PFC (Set, v)=Fsan 一 Fa, >0， 则 添加 到 关键 组 子 图 中 ， 逐 渐 遍 历 
关键 节点 的 邻 域 ， 直 到 所 有 邻 域 节点 都 被 遍历 完 或 这 些 顶 点 
对 子 图 的 适应 度 都 为 负 ， 扩 展 的 过 程 将 结束 ， 得 到 核心 组 蛋 
白质 Set. 

关键 组 蛋白 质 的 形成 过 程 如 下 ; 

输入 : 蛋白 质 网 络 DG(V.E.P) , 关键 蛋 

输出 ;关键 组 蛋白 质 集合 Ser. 

(1) Set =Ø 


RE 


质 L={v,, V23- 。 


201904.00051 v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


录用 定稿 EFE, SRI 基于 模糊 蚁 群 的 加 权 蛋 白质 复合 物 识别 算法 


(2) For i21 to |L| do 
(3) Set; = Set; I L(v;) 
(4) For v; e Neigh(L(w) do//B J ABETE G JA E] AES s 


(5) If PFC(Set,vj)»0 do 


(6) Set; = Set; Ov; // Setev; 输出 关键 组 蛋白 
Set 

(7) End if 

(8) End for 

(9)End for 

例如 ， 图 1 给 出 了 一 个 包含 节点 vw vw 的 加 权 网 络 图 。 
根据 节点 适应 度 来 判断 是 否 添加 vw ， 若 添加 节点 使 得 适应 度 
差 值 大 于 0， 则 添加 节点 ， 否 则 不 添加 节点 。 具 体 节点 适应 
度 的 计算 过 程 如 下 : 


*ü 
Hm 


人 
ri 


图 1 实例 图 
Fig.1 Instance graph 
图 1 fA. p(v.v)208, p(vwv)209 p(v.v,)207 , 
若 节 点 vi 添加 到 该 图 中 ， 得 到 p(w,w)=0.8 p(vv,)207 , TRES 
x& C180 来 计算 添加 节点 vw 和 删除 节点 v 的 节点 适应 度 的 差 
值 ， 若 大 于 0， 则 添加 和 否则 不 添加 。 
F;,, =0.1x EDx0.9x WR = 


0.1x 2x (0.8 +0.8+0.9+0.7) 55. 0.8 + 0.8 + 0.9 + 0.7 
4x3 ~ 0.8+0.9 +0.8 + 0.8 - 0.9 + 0.7 


= 0.0313 


0.1x2x(0.8+0.9) oo 08-09 _00361 
2x3 0.7 - 0.8. 0.9 


KJ F(S.v)eF., Fy,<0， 所 以 不 添加 节点 v。 
2.3.3 相似 度 改 进 的 SI 度量 
针对 蚁 群 算法 需要 反复 计算 节点 的 邻居 节点 数 进 而 归 
化 共同 邻居 节点 ， 造 成 算法 的 运行 效率 不 高 的 问题 ， 本 文 根 
节点 与 核心 组 蛋白 质 的 相似 度 SI 度量 公式 来 计算 拾 起 放 
下 的 概率 ， 再 利用 该 模型 完成 聚 类 。 下 面 给 出 相似 度 的 SI 
度量 计算 公式 。 

给 定 无 向 图 DG(V,E,P), 其 中 : 了 表示 蛋白 质 节点 集合 ; E 
表示 相互 作用 的 集合 ; P(i,j 为 蛋白 质 节 点 i 与 j ANARE 
系数 以 及 基因 共 表 达 信 息 乘 积 进行 加 权 得 到 的 边 权 重 ， 则 和 蛋 
白质 i 与 关键 组 蛋白 质 Set 的 相似 度 SI 度量 公式 如 下 所 示 
> Phi j) 


(i ese (19) 
SAM | Set |(| Ser | -1)/2 


F; =0.1x EDx0.9xWR- 


证 明 : 
a) 对 于 Yi Set , SI(i,Set)=s(Set,i) ， 对 称 性 满足 ; 


b) 对 于 Vise ， 7)>0 E lserldserl|-D/2>0 则 


SI(i,Set)>0 ， 非 负 性 满足 ; 
c) 对 于 Vi,z,Set ， SI(i,z)+SI(z,Set)>SI(i,Set) ， 三 角 不 等 式 
满足 。 


角 不 等 式 特性 ， 且 满足 全 局 一 致 性 聚 类 假设 


设 ， 是 相似 度 度量 公式 。 


本 文 在 聚 类 的 过 程 中 ， 根 据 节 点 与 关键 组 蛋白 质 的 相似 


度 SI 度 


量 公式 来 计算 拾 起 放下 的 概率 , 再 利 
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MEX (190 满足 相似 度 度量 的 对 称 性 、 非 负 性 、 和 三 


和 局 部 一 致 性 假 


用 该 模型 完成 聚 


类 ， 故 将 式 (5) JU C60 的 拾 起 放下 概率 模型 公式 转变 为 


再 根据 


度 ， 根 据 拾 起 放下 概率 模型 来 实现 蚁 群 聚 类 


最 优 解 ， 
平 : 

输入 : 
输出 : 


式 (18) 来 判断 是 否 将 关键 蛋白 质 的 邻 域 节 
节点 y 使 得 PFC (Set, v)=Fserv — Fras > 0 " 则 添加 


2 
kp 
Zu 


| 


sq 


基于 改进 的 蚁 群 算法 ， 具 体 获 得 蛋白 质 
目 思 想 如 下 : 根据 2.3.1 节选 取出 来 的 关键 
的 关键 组 蛋白 质 Set, 遍历 关键 蛋白 质 的 邻 域 节 点 ,然后 根据 


2SI(iSet) ,SI(iSet) « kq 
A , 


Q0) 


Q1) 


复合 物 的 聚 类 数 
蛋白 质 作为 初始 


点 添加 进来 ， 若 
到 关键 组 子 图 中 ， 


SI 度量 来 计算 节点 与 关键 组 蛋白 质 


子 图 之 间 的 相似 


输出 蚁 群 聚 类 的 聚 类 数目 。 蚁 群 聚 


> ERIKA 
类 的 具体 过 程 如 


EARN DG(V,E, P), RIERA L= {VVV} o 


蛋白 质 复合 物 的 聚 类 数目 M。 


(1)M-0, Set =Ø 
(2)while LG do 
(3) for t-1 to I do 


(4) 
(5) 
(6) 
(7) 
(8) 
(9) 
(10) 
(11) 
(12) 
(13) 
(14) 
(15) 


(16) 
(17) 
(18) 


(19)Return M // 输 出 蛋白 质 复 合 物 的 数 


Set, = Set, I L(v;) 
for n=1 to N do 
for i-1 to |L| do 


调用 关键 组 蛋白 质 的 形成 过 程 ， 得 到 集合 Set 


for v,eNeigh(Set;) do 
if PFC(Set,,v,)>0 do 


F 
end if 


FM 


end for 
蚂蚁 得 到 自身 的 解 


end for 


M=M+1 
end for 


end for 


本 文 将 关键 蛋白 质 节点 以 及 通过 改进 的 
得 的 聚 类 个 数 初始 化 FCM 算法 , 弥补 FCM 算法 对 初始 聚 类 


中 心 和 聚 类 数目 敏感 的 缺陷 。 


2.4 FCM 算法 的 改进 

2.4.1 隶属 度 更 新 的 改进 策略 
针对 FCM 算法 的 聚 类 实际 上 就 是 一 个 隶属 度 窍 阵 u 和 

聚 类 中 心 e 交替 优化 过 程 ， 当 隶属 度 较 大 时 


þes% 


JRK 


Ml 


属 的 类 别 不 发 生 改 变 以 及 隶属 度 更 新 较 慢 等 
算法 的 收敛 速度 ， 可 以 修正 隶属 度 和 矩阵 u 来 


Ph 心 ， 使 计算 结果 更 加 合理 ， 提 高 算 


属 度 越 大 ， 样 本 对 类 中 心 的 吸引 力 越 大 。 


拾 起 放下 概率 模型 对 节点 进行 聚 类 


58 t 代 蚂 蚁 全 部 得 到 自身 的 解 ,根据 模块 度 评价 标准 , 求 
出 本 次 迭代 的 最 优育 类 结果 


蚁 群众 类 算法 获 


， 和 蛋白 质 节 点 所 
问题 ， 为 了 提高 
计算 下 一 次 迭代 
法 的 收敛 速度 。 


本 文 基于 竞争 学 


习 的 思想 ， 给 出 一 种 隶属 度 的 改进 策略 : 在 
到 初始 的 聚 类 中 心 和 聚 类 数目 之 后 ， 得 到 较 


值 ， 使 得 距离 样本 中 心 点 的 类 中 心 作为 获胜 


通过 蚁 群 算法 得 


为 可 靠 的 隶属 度 
节点 ， 距 离 次 者 
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gd, Wi 基于 模糊 蚁 群 的 加 权 蛋 白质 复合 物 识别 算法 


的 节点 作对 手 ， 通 过 加 入 一 个 抑制 参数 来 不 同 幅度 减弱 对 手 


来 加 快 赢 着 的 收敛 速度 ， 进 而 提高 算法 的 
述 为 : 对 于 对 象 *, 若 它 对 第 1 类 的 隶属 度 最 大 ， 
一 行 的 剩余 隶属 度 相差 较 大 时 ， 整 体 的 隶属 度 的 更 新 速度 加 


快 的 较 多 ; 


对 第 s KAR 


执行 效率 。 具 体 措 
为 w， 与 同 


BEKRA, J ts, AEAN 


参数 7 ， 则 隶属 度 的 更 新 公式 为 


式 (2) 可 以 看 出 ， 


AÉ 


显 的 


ES 7-06 。 


2.4.2 FCM 目标 函数 选取 的 改进 


u, —a nus, us -(1-7)u, 


Q2) 


在 隶属 度 更 新 时 ， 本 文 充分 考虑 及 节 


身 的 状态 ， 若 对象 对 1 类 的 隶属 度 以 及 对 
度 相差 的 不 大 ， 那 么 上 述 公 式 的 更 新 速度 就 会 变 慢 ; 
优势 时 ， 即 加 快 隶 属 度 的 更 新 速度 。 公 式 中 ?了 的 取 值 会 
直接 影响 到 算法 的 执行 效率 ， 本 文通 过 实验 验证 ， 将 参数 设 


s 类 的 隶属 
AAH 


针对 传统 的 FCM 算法 的 目标 


函 数 仅仅 考虑 了 类 内 距离 ， 


S 


没有 考虑 类 间距 ， 采 | 
部 最 优 ， 导 致 复合 物 挖 


出 一 种 兼顾 类 内 和 类 间 


J 


jt 


局 部 最 优 ， 挖 掘 出 高 内 聚 
和 类 内 距 ， 本 文 根 据 Xie-Beni 提出 


EE 


度 法 求解 极 值 ， 所 求解 容易 陷入 局 
的 准确 度 不 高 。 为 了 避免 算法 陷入 
Kd emi. £u ISSSIIE 
4 聚 类 有 效 性 指标 29， 给 
标 函 数 。 


的 新 FCM 的 


JS PIER 25 ye W (uck) 和 类 间距 AQ eK) 差异 分 别 为 


MM 
W(u.c, M)- S V upd(x,c;) 
i=l j=l 


A(u,c, M) -|V |xmin ||c; -cy |P 
jeM 


Q3) 


Q4) 


综合 考虑 类 内 和 类 间距 差异 ， 改 进 FCM 算法 的 目标 函 


数 ， 即 


J (u.c, M) 


2.5 算法 描述 


FAC-PC 算法 具体 的 实现 步骤 如 下 : 


V| M 
jd (x;s6; 
EP» T 
MA(u,c,M) M |V |min |c; -cu |P 
jeM 
为 N， 蚁 群 迭 代 次 数 T, 


a) 初始 化 参数 设计 。 蚂 蚁 数目 


T £3 6. COPAS. XSEBHRBO. P... o. e. m, 


b) 根据 式 C130 X 
(14) 来 计算 veV 节点 上 


质 网 络 边 进行 加 权 ， 进 而 采取 式 


的 EPS fH. 


车 ，EPS(w)>9 将 该 节点 


加 入 到 关键 蛋 
值 Pu ,v)-0 的 边 当做 噪声 数据 移 除 。 
c) TE SER 


贰 节点 当做 初始 的 关键 组 子 区 
关键 节点 的 邻 域 节点 ， 根 据 式 (18) 计 算 节 点 v 的 适应 度 ， 
若 节 点 v 使 得 PFC(Senv)=R, Fun >0， 则 添加 到 关键 组 子 图 


质 集 合 工 ,按照 非 递 减 的 顺序 进行 排序 ， 将 权 


lI (u.c, MY -Y(u,c, M) 


则 返回 到 步骤 人 。 
根据 上 述 步骤 说 
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ls， 停止 计算 ， 输 出 聚 类 结果 旋 ; 


明 ， 本 文 算法 的 描述 实现 如 下 : 


输入 : 蛋白 质 网 络 G(V,E,P) 。 


输出 :蛋白质 复 合 物 。 


a) 初 始 化 参数 : 蚂蚁 数 


HN, BGRBET CRI, WEZ k, , 


S2. AORAR, P, 8, 0, €, N; 


b) 获 得 和 蛋 


(1)for t=1 to 工 

(2) for n-1 to N 
(3) 调 
(4) 调 
(5) end for 
(6)end for 

c) 挖 掘 和 蛋白 质 
(1) for 


关键 蛋白 质 的 选取 过 程 ， 获 得 关键 蛋白 质 集合 上 
改进 的 蚁 群 


聚 类 算法 ， 获 得 聚 类 数目 M 


each v; €V do 


第 37 卷 第 5 期 


不 
[m] 


放下 


(2) Initialize FCM «- LM ，k=1// 初 始 化 FCM 的 初始 聚 类 中 心 


和 聚 类 数目 
(3) Compute u; by 
(4) Modify 4; by us 
(5) Update cj by us 
(6) Compute J(u,c, 


(7) — if|](Qnc MY 
(8) else 

(9) 

(10) end if 


(11) end for 
(12)return wj // 得 至 


using Eq. (2) 

ing Eq. (22) 

ing Eq. (3) 

M) by using Eq. (25) 


-J(uc,M) |k«e , STOP 


k=k+1 return to (4)-(7) 


1 FL EEG 


2.6 算法 的 时 间 复 杂 度 


FAC-PC 算法 的 


PPI 网 络 中 节点 度 的 最 大 值 为 di , fid 
表达 数据 构建 加 权 PPI 网 路 的 时 间 复 杂 度 为 0dED ; 采用 


公式 选取 关键 蛋白 质 


计算 复杂 度 由 以 下 几 个 步骤 构成 : 


节点 的 时 间 复 条 度 为 C4Y) ; 采用 


昌 边 聚集 系数 以 及 直 


假设 


EPS 


适应 度 选取 关键 组 蛋 


质 的 时 间 复 杂 度 为 24YP) ; 假设 


节点 经 过 拾 起 放下 完 
关键 羡 值 的 节点 个 数 


Set, 


3i Jj 


Set 中 o 重复 BRE, 


白质 Set. 


直到 所 有 邻 域 节点 都 被 遍历 完 或 这 些 顶 点 
对 子 图 的 适应 度 都 为 负 ， 


扩展 的 过 程 将 结束 ， 得 到 关键 组 蛋 


d) 根据 式 (18) 计算 v 对 于 关键 组 蛋白 质 Set 的 节点 适 


MLE, Fr PFC(v,Set)>0 ， 利 用 式 (200 
下 概率 ， 利 用 拾 起 放下 规则 来 完成 蚁 群 聚 类 过 程 ， 否 则 不 进 
行 操作 ， 直 接 转向 步骤 中。 

e) 重复 步骤 d)， 根 据 改进 的 蚁 群 算 # 


和 QD 计算 拾 起 放 


得 到 聚 类 个 数 M。 


ES 
f) 将 上 述 得 到 的 关键 蛋白 质 节 点 集合 L 和 聚 类 个 数 M 
初始 化 FCM 聚 类 算法 的 初始 聚 类 中 心 c 和 聚 类 个 数 M， 根 
据 式 “2) 计算 隶属 度 和 矩阵 占 ， 再 根据 式 〈22) 修正 更 新 隶 


g) 根据 式 (25) 


Il (u.c. M y -J(uc, M) 


属 度 矩 阵 w ,接着 利用 式 (3) 更 新 FCM 算法 的 聚 类 中 心 6 。 
计算 FCM 目标 函数 7(uc,M)， 并 判断 


-一 m 


小 DE € 


FEN OUNk |V P) ; 采 月 


成 聚 类 的 比较 次 数 为 OUNEk |V P) , 
为 V1, 那么 蚁 群 聚 类 算法 的 时 间 
H FCM 算法 完成 最 终 的 复合 物 识 别 


过 程 的 时 间 复 杂 度 为 OdVF); 因此 ，FAC-PC 算法 的 时 


杂 度 为 0(El+ 
ACC-FMD 算法 中 ， 


算法 的 时 间 复 杂 度 主 
即 ocv p) 


法 中 ， 算 法 的 时 间 复 


TETTE 
的 过 程 ， 即 


V |*-|V P +Nk |V P. -|V P) 


HU OUNk|Vp) 。 
复杂 度 主 要 取决 于 种 子 


算法 的 时 间 


的 选取 和 蚁 群 聚 类 过 程 , 即 ONI P) ; 在 ACC-DPC 算法 中 


要 取决 于 初始 篮 的 构建 和 蚁 群 聚 类 


; 在 GENA 算法 中 ， 算 法 的 时 间 复 杂 度 主要 
于 初始 化 以 及 优化 集群 的 过 程 , 即 olalvP) ; 在 WCOACH 算 


杂 度 主要 取决 于 初始 核 的 检测 和 添 


要 取决 于 主要 蛋白质 集群 


成 以 及 


0O(pyBIVP) 。 上 述 提 及 的 7T 、T、7、 


和 B 分 别 表示 


基因 表达 时 刻 数 、 


3 ”实验 结果 以 及 分 析 


3.1 实验 环境 


一 个 
符合 
复杂 


RK 


间 复 
而 在 


= 
让 点 


$ 


取决 


加 附 


个 形成 蛋白 质 复 合 物 的 过 程 , 即 CecyYP ;在 IMHRC 算法 中 ， 


合并 


B 


AU 域 亲 和 
力 闪 值 、 中 心 获取 阔 值 、 中 心 移 除 阔 值 以 及 预测 到 的 模块 数目 。 


FAC-PC 算法 实验 的 编程 环境 为 Python3.5.2; 操作 系统 
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为 Windows 10 家 庭 中 文 版 ; 内 存 12 GB; 处 理 器 为 
Intel Core(199i5-4200H CPU @ 2.8 GHz. 
3.2 ”实验 数据 集 

为 验证 本 文 提出 算法 的 有 效 性 ， 选 用 蛋白 质 相互 作用 数 
据 相 对 完整 和 可 靠 的 酵母 蛋白 质 相 互 作用 网 络 数据 作为 实验 
数据 。 有 具体 实验 数据 如 下 所 示 : 

a) 酵母 PPI 网 络 数据 来 源 于 DIP 数据 库 P53, 去 除 重 复 以 
及 自 相 互 作用 ， 该 数据 库 包含 4 995 个 蛋白质 和 21 554 对 相 
互 作 用 。 

bo 实验 采用 的 时 序 基 因 表 达 数 据 为 GSE3431P94, 包 含 
7 079 个 蛋白 质 和 36 个 时 刻下 的 基因 表达 值 。 

c) 本 文采 用 CYC2008[?71 作 为 标准 数据 集 ， 该 数据 集 包 
含 408 个 通过 生物 实验 预测 得 到 的 蛋白 质 复合 物 。 
3.3 评价 指标 
3.3.1 精度 、 召 回 率 和 F-measure 度量 

本 文采 用 文献 [28] 的 精度 Precision), HEIR (Recall) 
和 了 度量 CF-measure) 指标 来 评价 算法 性 能 ， 这 些 指标 的 计 
算 依 赖 于 邻 域 业 和 评分 。 邻 域 亲 和 评分 主要 用 来 评价 预测 的 
复合 物 与 实际 复合 物 的 匹配 度 ， 其 定义 为 


OS(p.b)- 


i 
AIA 26) 


Rh: IV, DRIVE AY Ez PRU E) p -(V,.E,) 和 已 知 复合 


M) b-(V. E.) 的 规模 ;i 表示 预测 复合 物 和 标准 复合 物 交 和 集 的 
规模 。 若 05(p,B)>w， 则 认为 p 和 5 匹配 ， 一 般 @% 的 取 值 为 
0.2 或 者 0.25， 本 实验 中 取 值 为 0.2。 设 P 为 算法 预测 结果 集 
合 ，B 为 标准 复合 物 集合 ， 则 P 中 至 少 与 一 个 实际 复合 物 相 
匹配 的 复合 物 数 量 可 表示 为 Ns -|{peP,3beB,0S(p,b)>w@}| , 另 
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实验 , 取 20 次 实验 的 平均 值 进行 分 析 。 实验 使 用 到 的 参数 设 
置 如 下 : m=2, p=0.1, I=20 ，o=02 , ó-0.01 蚂蚁 个 数 V=50 ， 

dig Sd -09, WFX E -02, 06, 3E 1 给 出 了 有 具体 
参数 设置 情况 ， 其 中 Seti 代表 第 i 组 参数 。 图 2 Cao 和 o) 

中 parsetj 分 别 代表 s 取 0.001 5, 0.0045, 0.0075 对 应 的 
F-measure 值 和 匹配 的 蛋白 质 复合 物 比 例 ， 相 应 的 实验 结果 
如 图 2 所 示 。 


Al 实验 参数 设置 


Table 1 Experimental parameter setting 
e BUB ERR 0 取 值 范围 
0.1 0.2 0.3 0.4 0.5 
0.0015 Setl Set2 Set3 Set4 Set5 
0.0045 Set6 Set7 Set8 Set9 Set10 
0.0075 Set11 Set12 Set13 Set14 Set15 


图 2 可 知 ， 随 着 2 从 0 到 0.2 逐渐 增 大 ，F-measure 的 
值 在 不 同 取 值 之 下 也 逐渐 增 大 ，F-measure 达到 最 大 值 
0.577, 实验 识别 的 复合 物 和 已 知 的 复合 物 的 匹配 比例 也 逐渐 
加 ; 随 着 9 从 0.2 到 0.5 逐渐 增 大 ，F-measure IB TE £ 不 
取 值 之 下 逐渐 降低 ， 实 验 识 别 出 的 复合 物 和 已 知 的 复合 物 
匹配 比例 也 逐渐 降低 。 这 是 因为 本 文 融合 边 聚 集 系 数 与 基 
表达 数据 构建 加 权 网 络 ， 设 计 EPS 公式 来 选取 关键 节点 ， 
同时 利用 节点 适应 度 PFC 度量 来 逐步 遍历 关键 节点 的 邻居 
时 ， 充 分 考虑 内 部 节点 与 外 部 节点 之 间 的 联系 ， 随 着 关键 阔 
值 的 增 大 ， 算 法 识别 的 聚 类 数目 逐渐 增加 ， 呈 上 升 趋势 ， 实 
乐 上 每 个 类 中 包含 的 蛋白 质数 目 越 少 ， 而 类 的 数目 个 数 就 会 
越 多 ， 但 是 当 闵 值 增 大 到 一 定 值 时 ， 被 扩充 的 节点 与 关键 节 
点 的 作用 概率 要 求 提高 ， 邻 居 节 点 被 扩充 的 可 能 性 就 会 随 之 
降低 ， 所 要 求 的 挖掘 的 复合 物 精度 逐渐 增加 ， 对 节点 的 相关 


zd cv Gl mE 


一 方面 ，B 中 至 少 与 一 个 预测 的 复合 物 相 匹配 的 复合 物 数量 
H Na F {b € B.3p e P,OS(p.b) zol, 这 复合 物 检 测 方法 的 精度 和 
召回 率 的 定义 为 


uos Ne 
precision — [PI (27) 
N, 
raealls Bl Bi (28) 


为 了 避免 灵敏 度 和 特异 性 所 带 来 的 偏见 ,采用 F-measure 
综合 评价 指标 来 评估 整体 算法 的 性 能 。 其 计算 公式 如 下 : 


2x precisionx recall 


F —measure — 


Q9) 


precision 4 recall 


9 值 度量 

随 着 蛋白 质 组 学 研究 的 深入 ， 使 得 一 个 蛋白 质 与 其 功能 
注释 向 对 应 成 为 可 能 ， 蛋 白质 簇 发 生 对 于 一 个 给 定 功能 注释 
在 统计 学 上 的 意义 就 可 以 通过 一 个 超 几 何 分 布 的 等 式 来 进行 
igea, 


me A E (30) 
中 : VRE PPI 网 络 中 包含 的 蛋白 质 总 数 ; C 为 预测 挖掘 
的 复合 物 数目 ; FF 为 一 个 功能 组 数量 ; 大 为 C 中 包含 正中 
蛋白 质数 目 。 如 果 P-value 越 小 ， 越 接近 0， 则 说 明和 蛋白 质 
合 物 能 够 随机 出 现 这 种 功能 的 概率 就 越 低 ， 可 能 更 具有 生 
物 意义 。 一 般 地 ， 将 P-value 的 最 小 值 对 应 的 功能 作为 该 蛋 
白质 复合 物 的 主要 功能 。 通 过 给 每 个 识别 的 蛋白 质 复合 物 赋 
F P-value 最 小 对 应 的 功能 ， 可 以 预测 未 知 和 蛋白 质 的 功能 。 
3.4 参数 选择 
FAC-PC 算法 中 , 由 于 参数 0 和 < 的 取 值 影响 实验 的 聚 类 
效果 ， 所 以 本 文 在 15 2H 0 40 的 参数 取 值 上 独立 运行 20 次 


项 rr 
RÈ cr LE AE 


言 息 要 求 更 高 ， 所 以 挖掘 出 的 蛋白 质 复 合 物 会 更 严格 ， 导 致 
算法 F-measure 值 和 匹配 比例 先 增 加 后 降低 。 通 过 观察 发 现 
存在 一 对 合理 取 值 即 s=0.0015 ， 6=0.2 fd F-measure 达到 最 大 
值 0.453 且 匹 配 比例 达到 63.14%. 

0.5 


0.45 上 
0.4 F 
0.35 上 


F-measure 
ce 
N 
[^1] 


0.05 上 一 人 一 parsetl —8— parset2 —4— parset3 


0.1 0.2 0.4 0.5 


0.3 
9 取 值 范围 
(a) 实 验 结果 F-measure 值 变 化 图 
70. 00% 


33 60.00% F 


例 % 


一 一 
B eee 
È 50.00% F 一 
如 40.00% F 


复合 物 


we 30.00% | 
20. 00% 上 


10. 00% F 


4— parset] —E— parset2  —4— parset3 


匹配 的 蛋 上 


0. 00% 
0.1 0.2 0.3 0.4 0.5 

0 取 值 范 转 

人 b) 匹 配 的 蛋白 质 复合 物 比 例 变化 图 
图 2 F-measure 值 和 匹配 的 蛋白 质 复 合 物 比例 变化 图 


Fig.2  F-measure and matched protein complex scale change graph 
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3.5 EPS 度量 的 有 效 性 分 析 使 用 这 两 种 度量 提高 28.84%, 匹配 的 蛋白 质 复 合 物 比 未 使 用 


为 了 验证 FAC-PC 算法 使 用 基于 基因 表达 信息 和 边 聚 集 ”这 两 种 度量 提高 2.88%。 这 是 因为 本 文 根 据 EPS 度量 公式 选 
系数 的 EPS 度量 公式 的 有 效 性 , 分 别 基于 使 用 EPS 度量 选取 取 关 键 蛋 白质 节点 ， 同 时 使 用 关键 组 蛋白 质 代替 种 子 节点 进 
关键 蛋白 质 的 FAC-PC 算法 和 ACC-FMD 算法 , EDP 数据 ” 行 聚 类 ， 考 虑 到 网 络 的 拓扑 特性 以 及 基因 表达 程度 ， 同 时 也 
库 上 进行 复合 物 的 识别 ， 实 验 得 到 的 F-measure 和 [匹配 比例 — 考虑 到 复合 物 的 模块 性 以 及 稠密 度 ， 严 格 控制 蚁 群 拾 起 放下 


如 图 3 所 示 。 操作 ， 挖 掘 的 复合 物 较 准确 ， 避 人 免 非 关键 蛋白 质 无 效 的 拾 起 
0.7 放下 操作 ， 实 验 结果 说 明 ， 使 用 这 两 种 度量 的 算法 的 聚 类 效 
El precision O recall Bl F-measure O 匹配 的 复合 物 比例 果 较 优 。 
Be 3.7 ”算法 性 能 的 比较 分 析 
0.5 本 节 将 FAC-PC 分 别 从 精度 、 召 回 率 和 fF-measure 的 比 
0.4 TAPAT. NSEDEGSUNUAU Ee 2T WR D] B6 es S8 1] Eb 23 WT 55 
ACC-FMD!?!, ACC-DPCU4, GENAU”, WCOACHUS jl 
0. 3 IMHRC09 进 行 比较 分 析 。 重 复 迭 代 次 数 20 次 。 实 验 使 用 到 
0.2 的 参数 设置 如 下 : m-2, p-01, 1-20, 6-001, c-02, 
0.1 蚂蚁 个 数 N=50 , T6556 IL, 709 ,放下 参数 六 =0.2 , e-0.0015 , 
0-02, mg-06, 
0 1) 精度 、 召 回 率 和 F-measure 的 比较 分 析 
为 了 验证 本 文 算 法 的 性 能 ， 将 FAC-PC 算法 与 其 他 五 种 
图 3 EPS 度量 对 比分 析 算法 在 DIP 数据 上 独立 运行 20 次 ， 取 实验 结果 的 平均 值 进 
Fig.3 Comparative analysis of EPS metric 行 分 析 ， 得 到 各 种 算法 识别 的 复合 物 基本 信息 以 及 实验 评价 
图 3 显示 ， 使 用 关键 蛋白 质 选 取 EPS 度量 的 FAC-PC ”指标 对 比分 析 如 表 2 和 图 5 所 示 。 
算法 在 precision. recall, F-measure 取 值 和 匹配 的 蛋白 质 复 表 2 各 算法 识别 的 复合 物 的 基本 信息 
合 物 比 例 都 比 未 使 用 EPS 度量 的 取 值 要 高 。 其 中 precision Table2 Basic information of protein complexes for each algorithm 
的 取 值 比 未 使 用 EPS 度量 提高 19.13%, recall 的 取 值 比 未 使 算法 PM average N Na 
用 EPS 度量 提高 27.43%, F-measure 的 取 值 比 未 使 用 EPS FE ACC-FMD 283 9.5 150 113 
量 提高 24.46%， 匹 配 的 蛋白 质 复 合 物 比 未 使 用 EPS 度量 提 ACC-DPC 237 7.8 137 103 
高 26.25%。 实 验 结果 说 明 ， 使 用 改进 的 EPS 度量 的 算法 的 GENA 290 5.6 136 87 
聚 类 效果 得 到 了 提高 。 这 是 因为 FAC-PC 充分 考虑 网 络 的 拓 WCOACH 354 10.3 147 82 
扑 特性 以 及 基因 共 表 达 程 度 ， 根 据 关键 权重 度量 公式 来 选择 IMHRC 366 12.7 210 102 
关键 蛋白 质 ， 进 而 组 成 关键 组 蛋白 质 来 进行 聚 类 。 也 进一步 FAC-PC 369 13.5 233 144 
证 明 利 用 关键 组 蛋白 质 能 很 好 扩展 为 一 个 复合 物 。 在 表 2 vp, PM 表示 算法 识别 出 的 复合 物 总 数 ，average 
3.6 PFC 和 SI 度量 的 有 效 性 分 析 是 指 每 个 簇 中 的 蛋白 质 平均 个 数 。 由 表 2 可 以 知道 , FAC-PC 


为 了 验证 FAC-PC 算法 使 用 PFC 度量 和 SI 度量 的 有 效 。 算法 共识 别 369 个 复合 物 , 每 个 复合 物 平均 包含 13.5 个 蛋 
性 ， 分 别 基于 PFC 度量 以 及 SI 度量 的 FAC-PC 算法 和 — Ju. Mp 233 个 预测 结果 较 准 确 ， 标 准 集合 中 的 144 个 复合 
ACC-DPC 算法 , 在 DIP 数据 库 独立 执行 20 次 进行 复合 物 的 ，” 物 可 以 被 算法 准确 识别 到 。 相 较 而 言 ， 本 文 算法 对 于 挖掘 蛋 


识别 ， 实 验 检测 结果 对 比分 析 如 图 4 所 示 。 白质 复合 物 算法 具有 更 高 的 效率 ， 这 是 因为 本 文 是 基于 关键 
组 蛋白 质 进 行 蚊 群 聚 类 ， 严 格 控制 蚊 群 拾 起 放下 操作 ， 同 时 
本 将 通过 蚁 群 聚 类 得 到 的 聚 类 数目 以 及 关键 蛋白 质 节点 初始 化 


FCM 算法 ， 在 利用 改进 的 隶属 度 更 新 策略 解决 FCM 的 隶属 
度 更 新 较 慢 问题 ， 以 及 综合 考虑 类 内 和 类 间距 差异 ， 提 出 新 
的 目标 函数 并 完成 复合 物 的 识别 ， 使 得 聚 类 的 挖掘 效果 的 准 


确 度 和 收敛 速度 加 快 。 
0.7 
El ACC-FMD E ACC-DPC. 口 GENA 
0.6 t 口 WCOACH BIMHRC QFACPC 
0.5 
0.4 
0.3 
图 4 PFC 和 SI 度量 对 比分 析 0.2 
Fig.4 Comparative analysis of PFC and SI metrics 
图 4 显示 的 是 使 用 PFC 和 SI 度量 的 FAC-PC 算法 在 us 
precision, recall, F-measure. 取 值 和 匹配 的 和 蛋白质 复 合 物 比 0 
例 与 未 使 用 这 两 种 度量 的 对 比 情况 ， 其 中 使 用 这 两 种 度量 的 precision recall F-measure 
precision 的 取 值 比 未 使 用 这 两 种 度量 提高 9.23%, recall 的 取 图 5 算法 性 能 比较 关系 图 


值 比 未 使 用 这 两 种 度量 提高 39.81%，F-measure 的 取 值 比 未 Fig. 5 Performance comparison of algorithm 
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图 5 显示 了 各 种 算法 在 DIP 数据 集中 识别 的 复合 物 的 结 ”改进 隶属 度 更 新 较 慢 等 问题 ， 可 以 较为 精确 和 快速 地 挖掘 出 


果 。 从 图 中 可 以 清晰 地 发 现 FAC-PC 算法 在 精度 、 召 回 率 和  ” 蛋白质 复 合 物 。 因 此 ， 本 文 提出 的 算法 的 聚 类 效果 较 好 。 
F 度量 指标 上 取得 较 好 的 结果 。 具 体 来 说 ，FAC-PC 算法 的 2) 聚 类 效果 的 比较 分 析 
精度 为 63.1496, ， 相 较 ACC-FMD、ACC-DPC、GENA、 为 评估 本 文 提 出 的 FAC-PC 算法 的 聚 类 效果 ， 将 本 文 算 


WCOACH 和 IMHRC 分 别提 高 了 19.13%、9.23%、34.64%、 法 与 其 他 五 种 算法 挖掘 的 Elongator holoenzyme 复合 物 可 视 
52.06% 和 10.0596; 召回 率 为 35.29%， 相 较 ACC-FMD、 化 进行 对 比分 析 聚 类 效果 ， 聚 类 结果 如 图 6 所 示 。 图 6 显示 
ACC-DPC、GENA、WCOACH 和 IMHRC 分 别提 高 了 27.43%、 了 不 同 算法 检测 到 的 Elongator holoenzyme 复合 物 结果 ， 其 
39.81%、65.51%、75.61% 和 41.18%; F 值 度量 为 45.28%， 中 图 6(a) 是 该 标准 复合 物 所 包含 的 蛋白 质 相 互 作用 情况 ;(b) 


相 较 ACC-FMD、ACC-DPC、GENA、WCOACH 和 IMHRC ” 是 本 文 算法 的 检测 结果 ; (c) 是 ACC-FMD 算法 的 检测 结果 ; 
分 别提 高 了 24.46%、28.84%、54.48%、67.17% 和 30.02%. (qd) 是 ACC-DPC 算法 的 检测 结果 ; (e) 是 GENA 算法 的 检测 结 
实验 结果 表明 , 使 用 本 文 算 法 挖掘 蛋白 质 复 合 物 的 聚 类 精度 、 果 ; (用 是 算法 WCOACH 的 检测 结果 ; (g) 是 IMHRC 算法 的 
召回 率 和 F-measure 相 比 较 其 他 五 种 算法 都 得 到 了 提高 。 这 ”检测 结果 。 通 过 图 6 显示 ， 本 文 算法 能 够 准确 地 识别 蛋白 质 
是 因为 ,在 ACC-FMD 算法 中 , 使 用 种 子 节点 进行 蚁 群 聚 类 ， 复合 物 ;ACC-FMD 算法 识别 出 标准 复合 物 中 的 6 个 蛋白 质 ， 
若 种 子 节点 之 间 的 相似 度 较 大 ,会 出 现 重 复 的 拾 起 放下 操作 ， 但 是 也 包含 了 4 个 非 Blongator holoenzyme 复合 物 内 的 蛋 
会 挖掘 出 重 划 模 块 ， 且 存在 大 量 的 合并 过 滤 ， 导 致 挖掘 的 时 ” 质 ; ACC-DPC 算法 识别 出 标准 复合 物 中 的 6 个 蛋白 质 ， 
间 效 率 低 : 在 ACC-DPC 算法 中 ， 初 始 聚 类 中 心 的 选取 仅仅 是 也 包含 了 1 个 非 Elongator holoenzyme 复合 物 内 的 蛋白 质 ; 
考 

物 


虑 到 网 络 的 拓扑 特性 聚 类 系数 ， 没 有 考虑 到 蛋白 质 基 因 生 ”GENA 算法 识别 出 标准 复合 物 中 的 6 个 蛋白 质 ， 但 是 也 包含 
言 息 ， 选 择 簇 中 心 的 条 件 比 较 单一 ， 仪 仅 根 据 拾 起 放下 规 了 2 个 非 Elongator holoenzyme 复合 物 内 的 蛋白 质 ; 

则 ， 在 聚 类 的 过 程 中 存在 大 量 的 拾 起 放下 操作 ， 导 致 挖掘 出  WCOACH 算法 识别 出 标准 复合 物 中 的 5 个 蛋白 质 ; IMHRC 
的 效果 不 佳 ; 在 GENA 算法 中 ， 使 用 贪 禁 方法 初始 化 集群 ， 算法 识别 出 标准 复合 物 中 的 6 个 蛋 和 白质， 但 是 也 包含 了 3 个 
在 聚 类 系数 的 基础 上 选取 种 子 节点 ， 仅 仅 考 虑 了 网 络 的 拓 # 非 Elongator holoenzyme 复合 物 内 的 和 蛋白质。 实验 结果 表明 ， 

特性 ， 挖 掘 的 效果 存在 大 量 的 重 受 模块 ， 在 WCOACH 算法 本文 算 法 挖掘 的 蛋白 质 复合 物 聚 类 效果 较 好 。 这 是 因为 ， 本 
中 ， 仅 仅 利用 GO 信息 来 构建 加 权 网 络 ， 缺 乏 考 虑 蛋白 质 网 。 文通 过 蛋白质 网 络 的 拓扑 特性 和 基因 表达 信息 来 构建 加 权 网 
络 本 身 的 拓扑 特性 以 及 特征 ， 且 在 聚 类 时 ， 若 核心 节点 选取 络 ， 可 以 降低 假 阳性 的 影响 ; 同时 根据 EPS 度量 选取 关键 蛋 
较为 相似 ， 则 会 挖掘 出 大 量 重生 的 模块 ， 最 终 导致 挖掘 的 准 白质 , 在 通过 节点 适应 度 PFC 度量 来 进一步 选取 关键 组 蛋白 
确 性 降低 ， 在 IMHRC 算法 中 ， 构 建 加 权 PPI 网 络 时 ,仅仅 。 质 ， 利 用 关键 组 蛋白 质 进行 蚁 群 聚 类 ， 这 样 减少 大 量 的 拾 起 
考虑 节点 度 即 网 络 的 拓扑 结构 ， 没 有 融合 生物 信息 ， 考 虑 构 ”放下 和 重复 的 合并 过 滤 操 作 ， 进 而 提高 聚 类 运行 效率 和 准确 
建 的 加 权 PPI 网 络 比 较 单 一 ， 使 得 挖掘 聚 类 效果 不 佳 。 而 本 ”性 ; 将 得 到 的 关键 蛋白 质 节点 以 及 聚 类 数目 初始 化 FCM， 接 
文 是 综合 考虑 网 络 的 拓扑 结构 和 生物 基因 表达 信息 来 构建 加 着 根据 隶属 度 更 新 的 改进 策略 改进 隶属 度 更 新 较 慢 的 缺陷 ， 

权 网 络 ， 基 于 关键 组 蛋白 质 进 行 蚁 群 聚 类 ， 同 时 根据 适应 度 以 及 综合 考虑 类 内 和 类 间距 ， 优 化 FCM 的 目标 函数 ， 最 后 
来 严格 控制 拾 起 放下 操作 ， 在 最 终 使 用 FCM 算法 完成 聚 类 ”利用 改进 的 FCM 完成 蛋白 质 复合 物 的 挖掘 。 实 验 结果 表明 ， 


的 时 候 ， 综 合 考虑 类 内 和 类 间距 以 及 设计 隶属 度 更 新 策略 来 ”本 文 算法 在 识别 蛋白 质 复合 物 上 具有 较 好 的 聚 类 效果 。 


(a) 标准 复合 物 (b)FAC-PC 算法 检测 的 复合 物 (C)ACC-FMD 算法 检测 的 复合 物  ()ACC-DPC 算法 检测 的 复合 物 
(a) Standard complexes (b) Compounds detected by FAC-PC algorithm (c) Complexes detected by ACC-FMD algorithm (d) Complexes detected 
by ACC-DPC algorithm 


(e)GENA 算法 检测 的 复合 物 (WCOACH 算法 检测 的 复合 物 (gIMHRC 算法 检测 的 复合 物 
(e) Complexes detected by GENA algorithm (f) Complexes detected by WCOACH algorithm (g) Complexes detected by IMHRC algorithm 


图 6 各 个 算法 的 复合 物 挖掘 可 视 化 比较 

Fig.6 Visualization comparison of protein complexes of each algorithm 
3) 功能 富 集 的 比较 分 析 能 富 集 分 析 。P-value 被 认为 是 衡量 识别 的 复合 物 是 一 个 真正 
为 了 测试 算法 识别 的 复合 物 的 生物 学 意义 ， 本 文采 用 功 — 的 蛋白 质 复 合 物 的 可 能 性 。 识 别 的 复合 物 的 低 P-value 值 表 


录用 定稿 EFE, SRI 基于 模糊 蚁 群 的 加 权 蛋 白质 复合 物 识别 算法 


明 该 复合 物 具 有 很 高 的 统计 学 意义 ， 一 般 将 P-value 的 最 小 中 显著 性 复合 物 的 比例 达到 82.66%， 相 比较 ACC-FMD、 
值 对 应 的 功能 作为 该 功能 模块 的 主要 功能 ， 通 过 给 每 个 识别 ACC-DPC、GENA、WCOACH 和 IMHRC 算法 分 别提 高 了 
的 复合 物 赋 予 最 小 的 P-value 值 对 应 的 功能 ， 可 以 识别 预测 65.92%、22.44%、77.57%、11.27%、68.08%。 由 此 可 见 ,FAC-PC 
复合 物 的 功能 。 若 一 个 模块 的 P-value<0.01， 则 认为 这 个 复 。 算法 识别 出 的 复合 物 具 有 很 强 的 生物 统计 学 意义 。 这 是 因为 
合 物 是 显著 的 。 显 著 的 复合 物 数量 在 识别 出 的 复合 物 总 数 中 本 文 提 出 的 算法 在 构建 加 权 网 络 的 时 候 ， 综 合 考 虑 网 络 的 拓 


所 占 的 比例 可 以 很 好 地 评价 各 个 算法 的 整体 性 。 具 体 各 个 算 扑 特性 和 基因 共 表 达 程 度 ， 同 时 利用 关键 组 蛋白 质 来 进行 蚁 
法 性 能 比较 分 析 如 表 3 所 示 。 群 聚 类 ， 将 关键 蛋白 质 节点 以 及 聚 类 数目 初始 化 FCM,， 根据 
表 3 各 个 算法 识别 的 复合 物 的 显著 性 统计 信息 隶属 度 相 对 更 新 策略 来 改进 隶属 度 的 更 新 较 慢 的 问题 ， 同 时 
Table 3 Significant statistics of protein complexes detected by each 还 综合 考虑 类 内 和 类 间距 对 实验 结果 产生 的 影响 ， 提 出 新 的 
algorithm 目标 函数 ， 最 终 导致 聚 类 效果 较 好 ， 执 行 效率 高 ， 挖 掘 的 生 
算法 PM SC Proportion 物 蛋 白质 复合 物 更 具有 生物 统计 意义 。 
ACC-FMD 283 141 49.8294 de 4 具体 给 出 本 文 FAC-PC 算法 识别 出 的 复合 物 实例 。 
ACC-DPC 237 160 67.5196 其 中 OS 表示 复合 物 的 匹配 率 ,，SM 表示 的 是 正确 匹配 的 蛋 
GENA 290 135 46.5596 质 个 数 ，Predicted protein 表示 组 成 复合 物 的 所 有 和 蛋 白质， 加 
WCOACH 354 263 74.2996 粗 部 分 表示 被 匹配 的 蛋白 质 。 从 表 4 可 以 看 出 ， 当 
IMHRC 366 180 49.18% P-value=2.22E-18 时 , 本文 算法 识别 的 NatC 复合 物 的 匹配 率 
FAC-PC 369 305 82.66% 达到 了 0.82， 正 确 匹 配 的 蛋白 质 个 数 是 9， 这 是 因为 
在 表 3 中 ，PM 表示 算法 识别 出 的 复合 物 总 数 ，SC 是 具 YGR134W 和 YNL288W 和 蛋白质 与 复合 物 内 部 连接 比较 松散 。 
有 显著 意义 的 复合 物 数目 。FAC-PC 算法 识别 的 复合 物 数目 此 可 见 ，FAC-PC 算法 识别 的 蛋白 质 复合 物 效果 更 好 。 


表 4 FAC-PC 算法 识别 的 复合 物 实例 
Table 4 Instances of protein complexes detected by FAC-PC algorithm 


P-value OS SM Predicted protein Real complex 
YCR093W YER068W YGR134W YPR072W YNL288W 
222E-18 0.82 9  YIL038C YNR052C YDL165W YAL021C YDR443C NatC 
YPLO011C 


YLR421C YDL007W YERO21W YPRIOSW YHR200W 
YDL097C YKL145W YGR232W YFR004W YDLI147W 
2.18E-29 0.79 20 YOR261C YDR427W YOR259C YOR117W YGL048C Giplp /Gle7p 
YHR027C YIL075C YFR010W YFR052W YDR394W 
YGL004C YBR272C YERO12W 
YORI116C YNLISIC YJL011C YKR025W YDLI150W 
1.90E-32 0.65 12. YNR003C YDR045C YKL144C YOR224C YPR190C Cde28p/Clb5p 
YOR207C YPR110C YDR00SC 
YBR253W YPR070W YMRI112C YGR104C YOL051W 
ey YCR081W YOL135C YGL152W YDL00SC YBR193C 
1.56E-29 0.88 23  YDR308C YLR071C YGL025C YPL042C YHR058C Glycine cleavage 
YNR010W YHR042C YNL025C YOR174W YPR168W 
YER022W YNL236W YBL093C YPL248C 
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